# 단원 소개[[introduction]]

<CourseFloatingBanner
    chapter={5}
    classNames="absolute z-10 right-0 top-0"
/>

[챕터 3](/course/chapter3)에서는 🤗 Datasets 라이브러리를 처음 맛보면서 모델을 미세 조정하는 데 필요한 세 가지 주요 단계를 배웠습니다:

1. Hugging Face Hub에서 데이터셋을 로드한다.
2. `Dataset.map()` 함수를 통해 데이터셋을 전처리한다.
3. 평가 메트릭를 로드하고 계산한다.

하지만 지금까지 배운 것은 🤗 Datasets 라이브러리가 할 수 있는 것의 빙산의 일각입니다! 이번 챕터에서는 더 자세히 살펴볼 것이며, 그 과정에서 다음 질문에 대한 답을 찾을 수 있을 것입니다:

* 데이터셋이 Hub에 없을 때는 어떻게 할 것인가?
* 데이터셋을 어떻게 쪼개어 분석할 수 있는가? (그리고 Pandas를 반드시 사용해야만 한다면?)
* 데이터셋이 너무 방대하여 노트북 RAM을 초과하면 어떻게 할 것인가?
* 도대체 "메모리 매핑 (mmap)"과 Apache Arrow는 무엇인가?
* 당신 고유의 데이터셋을 만들어 Hub로 푸시하려면 어떻게 해야 하는가?

여기서 배운 기술을 통해 [챕터 6](/course/chapter6)과 [챕터 7](/course/chapter7)에서 심화 토큰화 기법 및 미세 조정 작업을 하는 데 활용할 예정이므로 커피 한 잔 하고 오신 뒤 시작하도록 하겠습니다!
